查看原文
其他

AI 场景跑赢公有云!某资管用户以超融合承载 PostgreSQL 和 AI 系统的性能评测

深耕金融行业的 志凌海纳SmartX
2024-11-01

随着人工智能技术的日渐成熟,不少金融用户也开发了自己的 AI 应用系统,协助实际业务中诸如文字识别、图像转换、信息录入等工作,提升业务效率。不过,AI 应用系统普遍依赖 GPU 提供强大算力,对底层存储的性能也有较高的要求,“选择什么样的 IT 基础设施支持 AI 应用场景”也成为很多用户关心的问题。


近期,某头部资产管理机构计划升级 IT 基础架构,为生产环境投资分析系统数据库(PostgreSQL)和自研人工智能分析系统(以下简称“AI 系统”)提供高性能、高可靠支持,因此测试了 SmartX 超融合对以上两个应用场景的支持能力。


测试结果

  • 投资分析系统 PostgreSQL 数据库场景:3 节点 SmartX 超融合运行投资分析系统,用时相比生产环境物理服务器增加 1 分钟(18.8%),符合用户预期,可满足业务使用需求。

  • AI 系统:通过 GPU 直通功能在 SmartX 超融合中运行 AI 系统,性能明显优于生产环境某公有云平台,多种模型下文件分析用时降低 15%-27%


更多金融行业场景探索与性能评测,欢迎下载《金融核心生产业务场景探索》系列电子书(扫码并关注“SmartX 用户社区”公众号后,将自动弹出电子书链接)。


测试背景


该资管用户生产环境投资分析系统以 PostgreSQL 提供数据库服务,运行在单机物理服务器中,由本地磁盘提供存储能力。同时,用户还自行搭建了人工智能分析系统,运行在某公有云环境的云服务器中(每年公有云的投入高达数十万,成本较高)。AI 系统使用的模型包括 whisper(large-v2) 和 cogvlm2(int4),主要用于对音频、PDF 和图片等业务材料进行文字识别和转换,以及后续的数据分析和存档备份,以减少手工录入、提升工作效率。


为了进一步开展 IT 基础设施现代化建设并实现降本增效,以更低的成本投入为以上两个应用场景提供高性能、高可靠、易运维的 IT 基础架构支持,用户测试了 SmartX 超融合对两个应用场景的支持能力,并与生产环境性能表现进行了对比。


环境与配置


投资分析系统 PostgreSQL 数据库场景


为了确保测试虚拟机系统环境与物理服务器系统环境相同,本次测试使用 SmartX 自研 P2V 迁移工具 SMTX CloudMove,将当前运行在物理服务器上的投资分析系统 PostgreSQL 数据库在线迁移至 SmartX 超融合平台的虚拟机中。


硬件配置



软件配置


  • 生产环境物理机操作系统:CentOS 7.9

  • 测试环境超融合软件:SMTX OS 6.0


AI 系统


生产环境中,AI 系统部署在某公有云云主机中。测试环境中,在 SmartX 超融合平台创建一个配置规格相同的虚拟机,通过 GPU 直通功能将 NVIDIA L20 GPU 卡挂载至虚拟机中,部署应用模型后进行测试。欲深入了解 SmartX 超融合 GPU 直通与 vGPU 支持功能,请阅读:GPU 直通 & vGPU:超融合为 GPU 应用场景提供高性能支持


系统环境



GPU 卡信息


* 在进行 AI 模型推理如 whisper 和 cogvlm 时,使用更多的是 GPU 内的 Tensor Core 进行 Transformer (whisper)与卷积网络矩阵运算(cogvlm),并非单纯依靠 CUDA Core。因此生产环境与测试环境使用的 GPU 在此次测试项目中综合表现基本持平,测试结果差异主要反映了两个平台虚拟机性能和存储性能的差异。


测试项目


  • 投资分析系统数据库性能测试:通过测试脚本发起对不同资产产品进行分析的任务,获取每项产品的分析耗时,并与生产环境任务用时进行对比。

  • AI 系统性能测试:分别测试 whisper 模型和 cogvlm 模型下多种文件的分析用时(包含图像、音频和视频),并与生产环境分析用时进行对比。


测试结果


投资分析系统 PostgreSQL 数据库性能测试


测试时,SMTX OS 开启 RDMA,经过多次优化,将虚拟机配置调整为 8vCPU 和 256GB 内存,保持服务器超线程关闭和虚拟机处理器物理透传,并对虚拟机 vCPU 做物理核绑定。测试结果如下图所示。



可以看到, 在 SmartX 超融合中运行投资分析系统 PostgreSQL 数据库,测试总用时比裸金属环境慢 1 分钟左右(18.8%),用户表示结果符合预期,可满足用户的业务使用需求。更重要的是,这一测试结果是基于 8 个虚拟核(vCPU)对比生产环境的 32 个物理核得出的,在硬件资源仅有原环境约 1/8 的情况下(测试环境与原生产环境都使用二代 XEON,CPU 主频相差也仅为 0.1 GHz),实际性能差异只有不到 19%,超融合环境能更好地满足用户更为看重的整体拥有成本(TCO)以及运行效率方面的需求。


另外,我们在测试过程中通过 iostat / top 等工具对超融合节点性能进行持续监控,观察到存储间歇性压力为 30-50MB/s,iowait 持续为 0,内存用量约为 20G 左右,而 CPU 单核负载保持在 99%,因此性能方面的压力主要集中在 CPU 上。


AI 系统性能测试


whisper 模型测试



cogvlm 模型测试



可以看到,在两个模型测试中,SmartX 超融合支持 AI 系统进行多种文件分析任务(包括图像、音频、视频),相较生产环境公有云用时缩短了 15%-27%,用户对此性能表现十分满意。


总结


整体而言,SmartX 超融合平台能够为金融用户投资分析系统数据库(PostgreSQL)和人工智能分析系统提供高性能、高可靠的基础架构支持,尤其是在 AI 场景中,SmartX 超融合性能明显优于公有云环境,能更好地满足业务需求。此外,超融合架构简洁、灵活的特点,能够为用户带来更多收益:


  • 灵活扩展:支持最少 3 节点部署,按需扩展,带来媲美公有云的灵活性。

  • 简化运维:超融合架构简单,具备多种运维支持功能,降低运维难度。SMTX CloudMove 自研迁移工具支持用户高效、便捷地从物理机、公有云、虚拟化平台迁移至 SMTX OS 集群。

  • 多种 GPU 支持特性:支持 GPU 直通、vGPU 功能,以及 MIG、MPS 等技术,允许用户对 GPU 进行灵活切分。

  • 降本增效:避免高昂的公有云投入,以性价比更高的超融合平台提供更强大的性能支持。SmartX 超融合也支持 CPU、GPU 资源的灵活分配,提升资源利用率,且支持用户利旧既有服务器,进一步降低硬件成本。


欲深入了解 SmartX 超融合对 AI 应用场景的支持能力,请阅读:

您还可下载《SmartX 产品在数据库场景下的测试与实践合集》,了解更多行业用户使用 SmartX 超融合和分布式存储支撑 Oracle、MySQL 和信创数据库的评测与实践。
推荐阅读:
修改于
继续滑动看下一个
志凌海纳SmartX
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存